06 强化学习

01 强化学习定义:马尔科夫决策过程

在智能主体与环境的交互中,学习能最大化收益的行动模式:
Pasted image 20250529201321.png|375

离散马尔可夫过程 Discrete Markov Process

基本概念

随机过程:是一列随时间变化的随机变量;

马尔可夫链(Markov Chain):满足马尔可夫性(Markov Property)的离散随机过程,也被称为离散马尔科夫过程

马尔可夫奖励过程(Markov Reward Process):引入奖励

马尔可夫决策过程(Markov Decision Process):引入动作

例子

Pasted image 20250529204300.png|475

使用离散马尔可夫决策过程描述机器人移动问题:

综合以上信息,可通过 MDP={S,A,Pr,R,γ} 来刻画马尔科夫决策过程

策略学习

智能主体如何与环境交互而完成任务?需要进行策略学习

策略函数:

为了对策略函数𝜋进行评估,定义

这样,策略学习转换为如下优化问题:寻找一个最优策略 π, 对任意 sS 使得 Vπ(s) 值最大

价值函数与动作-价值函数的关系——贝尔曼方程(Bellman Equation)

Vπ(s)=aAπ(s,a)qπ(s,a)qπ(s,a)=sSPr(s|s,a)[R(s,a,s)+γVπ(s)]


02 策略优化与策略评估

强化学习求解:在策略优化和策略评估的交替迭代中优化参数
Pasted image 20250529205513.png|475

强化学习的求解方法:

基于价值(Value-based)的方法

策略优化

给定当前策略 π、价值函数 Vπ 和行动-价值函数 qπ 时,可如下构造新的策略 π, π 要满足如下条件:

π(s)=arccosaqπ(s,a)(sS)

策略评估

通过迭代计算贝尔曼方程进行策略评估

动态规划
算法流程

  • 初始化 Vπ 函数
  • 循环
    • 枚举 sS
    νπ(s)aAπ(s,a)sSPr(s|s,a)[R(s,a,s)+γνπ(s)]
  • 直到 Vπ 收敛

蒙特卡洛采样
算法流程

  • 选择不同的起始状态,按照当前策略 π 采样若干轨迹,记它们的集合为D
  • 枚举 sS
    • 计算 D 中 s 每次出现时对应的反馈 G1,G2,,GkVπ(s)1ki=1kGi

时序差分
算法流程

  • 初始化 Vπ 函数
  • 循环
    • 初始化 s 为初始状态
    • 循环
      • aπ(s,)
      • 执行动作 a, 观察奖励 R 和下一个状态 s
      • 更新 Vπ(s)Vπ(s)+α[R(s,a,s)+γVπ(s)Vπ(s)]
      • ss
    • 直到 s 是终止状态
  • 直到 Vπ 收敛

基于策略(Policy-based)的方法

通过直接参数化策略函数的方法求解强化学习问题;算法需要求参数化的策略函数的梯度,因此这些方法称为策略梯度法

假设强化学习问题的初始状态为 s0,不难定义算法希望达到的最大化目标为:

J(θ):=Vπθ(s0)

策略梯度定理

如果能够计算或估计策略函数的梯度,智能体就能直接对策略函数进行优化:

θJ(θ)=θsμπθ(s)aqπθ(s,a)πθ(s,a)sμπθ(s)aqπθ(s,a)θπθ(s,a)

基于蒙特卡洛采样的策略梯度法:REINFORCE

基于时序差分的策略梯度法:Actor-Critic 算法


03 Q-Learning

Q-Learning 算法流程

  • 初始化 qπ 函数
  • 循环
    • 初始化 s 为初始状态
    • 循环
      • a=argmaxaqπ(s,a)
      • 执行动作 a, 观察奖励 R 和下一个状态 s
      • 更新 qπ(s,a)qπ(s,a)+α[R+γmaxaqπ(s,a)qπ(s,a)]
      • ss
    • 直到 s 是终止状态直到
  • qπ 收敛

探索(exploration)与利用(exploitation)的平衡

Pasted image 20250530141237.png|450

为何 Q 学习收敛到非最优策略?

大体上利用,偶尔探索👇
ϵ 贪心(ϵ -greedy)策略:

ϵgreedyπ(s)={argmaxaqπ(s,a), 以 1ϵ 的概率  随机的 aA, 以 ϵ 的概率 
加上 ϵ 贪心(ϵ -greedy)策略后的 Q-Learning

  • 初始化qπ函数
  • 循环
    • 初始化 s 为初始状态
    • 循环
      • a=ϵgreedyπ(s)
      • 执行动作a, 观察奖励R和下一个状态 s
      • 更新qπ(s,a)qπ(s,a)+α[R+γmaxaqπ(s,a)qπ(s,a)]
      • ss
    • 直到 s 是终止状态直到
  • qπ收敛


04 深度强化学习

深度 Q 学习

Pasted image 20250530141516.png|475

伪代码:深度 Q 学习

两个不稳定因素:

经验重现 Experience Replay

目标网络 Target Network
$$\frac12[R+\gamma\max_{a^{\prime}}\boxed{q_\pi (s^{\prime}, a^{\prime};\theta^{-})}-q_\pi (s, a;\theta)]^2$$

θθ

Pasted image 20250530142322.png|450

Tips of Q-Learning

考试不作要求
一些科研的经验分享

05 多智能体强化学习

考试不作要求

Pasted image 20250530143756.png|500

两个问题:

沙普利值

Pasted image 20250530144043.png|450
Pasted image 20250530144058.png|450
Pasted image 20250530144112.png|450


Copyright © 2025 Casette.
Made with Obsidian DG.